查看原文
其他

OCP峰会Keynote:Intel和AMD都在谈UALink和Ultra Ethernet

唐僧 huangliang 企业存储技术
2024-12-09

目录

-OCP全球设备采购影响:2028年预计740亿美金

-AI硬件之争:从GPU芯片到集群

-为x86生态的未来携手

-被NVLINK和IB催生的技术:UALink和Ultra Ethernet

-微软Maia 100 AI芯片与OCP浮点格式规范

-Google数据中心机器人更换硬盘(视频)

2024 OCP Global Summit(开放计算项目全球峰会)于日前在美国落下帷幕,关注《企业存储技术》公众号时间长一点的朋友应该知道,每年这个时候我都在准备分享会议资料了。

比如去年的《2023 OCP Global Summit会议资料分享》,当然国内类似的组织我也有关注——《ODCC开放数据中心2024资料分享 (规范标准、白皮书等36份)》。

目前能下载到的本届OCP会议资料(Slide pdf)还只有Keynote部分。

2024 OCP Global Summit Keynote

链接: https://pan.baidu.com/s/13kVRDl3QVHTl_946uczUmw?pwd=yqjr

提取码: yqjr

大家也可以在关注本微信公众号之后,从后台对话框发消息 keynote24 来获取以上分享链接。

具体演讲主题如下。想要去油管上看视频的朋友,可以访问官网来源https://www.opencompute.org/events/past-events/2024-ocp-global-summit

Keynotes(Chronological order)

Title

Speakers



Welcome to OCP  Global Summit

George  Tchaparian (Ceo) - Open Compute Project Foundation (Ocp)

Video

Slides

Powering the  AI Future: Meta Vision for Open Systems for AI - presented by Meta

Omar Baldonado  (Director Of Engineering- Network Infra) - Facebook

Video

Slides

Fostering  Collaboration: Designing Data Centers for Tomorrow's AI Workloads - presented  by NVIDIA

Ian Buck (Vp  Of Hyperscale And Hpc Computing) - Nvidia

Video

Slides

PANEL: Scaling  Interconnect and Memory for AI Clusters

Nigel Alvares  (Vp Global Marketing And Business Planning) - Marvell
 Chris Petersen (Fellow Of Technology And Ecosystems) - Astera Labs
 Taeksang Song (Corporate Vp) - Samsung

Video


An Open-first  Vision of the AI-driven Data Center - presented by Intel

Justin Hotard  (Executive Vice President And General Manager Of The Data Center And Ai  Group) - Intel

Video

Slides

Accelerating  AI: A Holistic- Open Approach - presented by AMD

Forrest Norrod  (Executive Vice President And General Manager- Data Center Solutions Business  Group) - Amd

Video

Slides

GEICO's  Year-Long Journey to Realizing the Impact of an OCP-Optimized Infrastructure

Sahid Jaffa  (Head Of Hardware And Storage Engineering) - Geico
 John Hilt (Head Of Data Center & Operations) - Geico

Video

Slides

PANEL: Towards  an Open- Sustainable AI-Driven Data Center

Thomas Garvens  (VP Solutions) - Supermicro
 Melissa Massa (VP Global Sales Leader for Cloud Sales Providers) - Lenovo
 Eddie Ramirez (Vice President of Go-To-Market Infrastructure) - Arm

Video


From  Bottlenecks to Breakthroughs: Innovations in Data Center Infrastructure &  Security - presented by Microsoft

Saurabh Dighe  (Corporate Vp- Azure Strategic Planning And Architecture) - Microsoft

Video

Slides

Sustainable  Silicon to Intelligent Clouds: Building the Compute Infrastructure of the  Future - presented by Google

Partha  Ranganathan (Vp And Engineering Fellow) – Google

Video

Slides

Keynote演讲主要是一些偏宏观、提纲挈领的东西。今天我也从中选取了一些有代表性的内容,简单做些点评。

OCP全球设备采购影响:2028年预计740亿美金

按照发言顺序,首先是OCP CEO的分享:

OCP在全球的影响——这个$74 Billion740亿美金)的市场数字,应该是IDC预测的2028年。整个美洲的相关设备采购量占到了全球的一半,我也很高兴看到中国(PRC+HK)以23%位居“第二大经济体”。

接下来就是各大企业的分享。除了Keynote之外,上图中的1st2nd Panel部分指的是Executive Sessions环节——这些视频也在我前面列的官网链接中放出来了。

AI硬件之争:从GPU芯片到集群

上图来自大会东道主MetaFacebook)的分享。今年开始将AMDMI300X用于AI推理(系统代号Grand Teton Inference)。

当然NVIDIA最新的GB200也没有少。上面代号CatalinaOpenRack V3整机架方案,支持140kW供电。Liquid Cooled(液冷)后面的“FLC”一词我有点没太看懂,不知是不是把DLC冷板敲错了?

接下来就是NVIDIA的分享:

NVIDIA宣布要把GB200 NVL72的设计贡献给OCP。上图列出了一些要点,比如

- 5000NVLINK线缆;

- 计算Tray的尺寸:1U液冷;4 GPUs

……

x86生态的未来携手

如上图,在Intel的分享中我看到了Ultra Ethernet(超级以太网)和Ultra Accelerator Link(UALink),这2AI互连技术我稍后再展开点讨论。

Intel的演讲ppt到了一半,画风突然一变如下——我想前两天许多读者朋友也看到新闻了。

IntelAMD牵头组建x86 Ecosystem Advisory Groupx86生态系统咨询小组)。成员如下:

这个小组喊出的口号是:

This Is Our Future

Let's Define It Together!

NVLINKIB催生的技术:UALinkUltra Ethernet

接下来是AMD的演讲:

AMDHPC高性能计算来举例。左边是美国橡树岭实验室2022年的Frontier超级计算机,采用了第三代EPYC CPU + Instinct MI250X GPU。右边则是今年劳伦斯利弗莫尔国家实验室(Lawrence Livermore National LaboratoryLLNL)实验室的EI‘ Capitan,选用的Instinct MI300A则是Zen4 CPU+GPU Core的混合芯片,共享HBM3高速内存UMA的架构。

扩展阅读:在《Chiplet Summit 资料分享:展望10年后的GPU和HBM》中,我曾经讨论过一点MI300系列芯片的设计及后续展望。

在数据中心GPU集群,特别是现在需求增长的AI集群中,Scale-up(单机内部扩展)和Scale-out(多节点横向扩展)网络方面,NVIDIA2项优势技术NVLINKInfiniBand。这也是IntelAMD等结盟搞Ultra EthernetUALink的原因。用于Scale-outUEC基于当前的以太网发展而来;而UALink应该主要是AMD贡献了Infinity Fabric互连技术——即上图中写的xGMI

借助UALink交换机网络,可以实现GPU/加速器节点在一个POD内一定规模的跨机箱互连。如上图,是不是有点NVLINK的架势?当然,目前我看到的Infinity Fabric应该还是与PCIe共享物理层,资料有限,不知后续UALink是否会出现多个PCIe 6.0 x16 lane绑定使用的情况?从Switch芯片方面,倒是可以基于PCIe Switch来开发的,这一点有点像CXL(但二者用途不同)。

参考信息:“在9月的2024 ODCC开放数据中心大会上,阿里云联合信通院、AMD等十余家业界伙伴发起AI网络互连开放生态ALS(ALink System)。ALS产业生态支持开放的国际主流UALink协议,旨在解决AI网络纵向扩展(Scale-Up)中的超高速、超大带宽等技术难题,为下一代智算网络打造开放的、统一的标准规范。”

AIHPC集群更大规模Scale-out组网,当前除了IB之外,主要的通用技术就是基于以太网的RoCE

上图截自我在《AMD EPYC 9005 (Zen 5&5c) 服务器CPU架构解读》分享过的发布会资料。AMD Pensando Pollara 400网卡宣称即将首个支持Ultra Ethernet。所谓“UEC Ready RDMA”就是为了解决当前RDMA(IB/RoCE)的不足。还是要留意这张ppt下方的小字——对比RoCEv26倍提升,应该是用到了可靠的多路径传输。

微软Maia 100 AI芯片与OCP浮点格式规范

MicrosoftKeynote中,介绍了应用在Azure数据中心里的Maia 100——有点像Google自己流片TPU那种感觉。这里还提到了贡献给OCPMicroscaling Formats(MX)浮点精度格式规范,我们知道NVIDIA的Blackwell架构是较早开始支持FP4和FP6的。

https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf参与这个标准指定的还有AMDIntel等。

上图是我从zartbot老师的文章《HotChip2024-Day2: AI加速器互联和云AI处理器》中看到的,Maia 100支持6bit、9bitBF16精度计算。

AMD10天前的发布会上预介绍了Instinct MI350(规划在2025年下半年),也将支持FP4FP6数据格式。

Google数据中心机器人更换硬盘(视频)

按照Keynote发言顺序的最后一位来自Google,我想在这里放一段视频吧——好像每次他们秀出数据中心里的特写都挺有看点的。

对应视频源ppt上的文字描述,显示效果有点问题,我粗略整理如下。供参考:

OCP 24 Spotlights

Robotics

Enable DC operations to scale while ensuring health safety of technicians materials 

movement rack 

mover disk repair automation

后续我会继续分享2024 OCP峰会的更多资料,敬请期待!


扩展阅读:《企业存储技术》文章分类索引更新(微信公众号合集标签)


:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流,可以加我的微信:490834312。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)


尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage

长按二维码可直接识别关注


历史文章汇总:http://www.toutiao.com/c/user/5821930387/

http://www.zhihu.com/column/huangliang



点击下方“阅读原文”,查看更多历史文章↓↓↓
个人观点,仅供参考
继续滑动看下一个
企业存储技术
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存